[DAY 8] YOLOv5-下篇

15th鐵人賽

768 瀏覽

補充:

上篇中的YOLOv5架構圖中，有繪製到一個CBL block，這邊CBL包含了 convolution、Batch Normalization以及Leakly ReLu激活函數。

影像擴增技術:
- Mosiac:將四張圖併成一張。
- Copy-Paste:將其他的物件切割貼到另外一張圖片上。
- Random Affine Transformations:隨機將影像進行放大縮小、旋轉、shearing。
- MixUp:將多張圖片以線性的方式進行合併。
- Albumentations:多種augmentation的函式庫。
- HSV: 隨機變換影像的色相(Hue)、飽和度(Saturation)、值(Value)。
- 隨機水平翻轉。
訓練策略:
- 多尺度訓練: 在模型訓練過程隨機將影像以原圖0.5到1.5倍放大。
- AutoAnchor: 個人覺得跟YOLOv2採用的Dimension Clusters一樣用以挑選最適合該資料集的Anchor Box。
- Mixed precision訓練:採用單精度訓練與混合精度訓練出來的準確度都差不多，但是對於複雜的模型，採用混合精度可以節省記憶體的使用以集提升運算速度。
- 同樣有採用基因演算法取得最佳超參數。

Classes Loss:用來計算分類錯誤(採用Binary Cross Entropy Loss)。
Objectness Loss:物件是否在該Grid Cell當中(同樣採用Binary Cross Entropy Loss)。
- 分別對大、中以及小物件進行加權值計算loss:
- 權重固定: 大、中以及小物件分別為4、1以及0.4。
Location Loss: 計算物件的位置(C-IOU)。